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基于 深度 循环 神经 网 络 的 跨 领域 文本 情感 分 析 ” 
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摘要 : [目的 /意义 ] 通 过 在 标注 资源 丰富 的 源 领 域 (Source Domain) 中 学 习 , 并 将 目标 领域 (Target Domain) 
的 文档 投影 到 与 源 领 域 相同 的 特征 空间 (Feature Space) 中 去 , 从 而 解决 目标 领域 因 标 注 数据 量 较 小 而 难以 获 
得 好 的 分 类 模型 的 问题 。[ 方法 过程] 选择 亚马逊 在 书籍 .DVD 和 音乐 类 目下 的 中 文 评论 作为 实验 数据 ,以 跨 
领域 情感 分 析 作 为 研究 任务 ,提出 一 种 跨 领 域 深度 循环 神经 网 络 (Cross Domain Deep Recurrent Neural Network , 
CD-DRNN ) 模型 ,实现 不 同 领域 环境 下 的 知识 迁移 。CD-DRNN 模型 在 跨 领域 环境 下 的 平均 分 类 准确 度 达 到 了 
81.70% , 优 于 传统 的 栈 式 长 短 时 记忆 网 络 (Stacked Long Short Term Memory，Stacked-LSTM) 模 型 (79.90% )、 双 
向 长 短 时 记忆 网 络 模型 (Bidirectional Long Short Term Memory，Bi-LSTM ) 模型 (80.50% ) 、 卷 积 神经 网 络 长 短 时 
fede 网 络 串 联 ( Convolution Neural Network with Long Short Term Memory, CNN-LSTM) (74. 70% ) 模型 以 及 卷 积 神 
A 24K #8 BY ia It A 2% FR ( Merged Convolution Neural Network with Long Short Term Memory, Merged -CNN - 
St) 模型 (80.90% ) 。[ 结 果 / 结 论 ] te A A A RE AB EOS A a A A] fe a EEA 
获得 好 的 分 类 效果 的 问题 ,通过 CD-DRNN 模型 能 够 从 无 标注 数据 中 有 效 地 筛选 特征 ,从 而 大 大 降低 目标 领域 
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情感 分 析 


随 着 社交 网 络 (Social Networks) 的 发 展 与 深入 , 越 
来 越 多 的 人 倾向 于 通过 社交 网 络 表达 和 分 享 自己 对 某 
些 距 品 的 主观 意见 ,同时 ,在 购买 产品 前 获取 和 分 析 相 
应 网 网 络 评论 作为 重要 参考 意见 。 从 文学 作品 (例如 
书评 .影评 和 音乐 评论 ) 到 电子 产品 (例如 手机 、 数 码 


在 迁移 学 习 ( 领域 适 配 ) 的 实际 应 用 中 ,往往 存在 
较为 严重 的 概念 漂移 (Concept Drift)” 和 特征 漂移 
(Feature Drift)”。 例 如 “酸甜苦辣 "这 类 表征 味觉 的 
特征 词 在 美食 评论 领域 的 分 布 频 率 远 高 于 其 在 家 电 领 
域 的 分 布 频率 ;特征 分 布 在 不 同 领域 所 呈现 的 巨大 差 


相机 和 家 电 产 品 ) ,从 吃喝 玩乐 (例如 餐饮 .景点 评论 
和 旅游 评论 ) 到 衣食 住 行 (例如 服装 评论 .地产 评 论 和 
汽车 评论 ) ,评论 所 涉及 的 领域 往往 分 布 广泛 并 且 比 例 
失衡 。 在 自动 化 的 信息 分 析 过 程 中 ,如 果 对 所 有 领域 
进行 单独 建 模 , 则 需要 耗费 大 量 的 时 间 和 人 力 。 鉴 于 
此 ,研究 者 希望 在 一 些 相似 或 者 相近 的 领域 之 间 建 立 
迁移 学 习 (Transfer Leaming) 吕 或 者 领域 适 配 (Domain 
Adaptation) 模型。 例如 ,通过 标注 书评 领域 的 数据 ， 
针对 所 学 习 到 的 情感 分 类 模型 或 者 主题 分 布 模型 ,将 
其 迁移 或 者 适 配 到 影评 领域 ,从 而 节省 大 量 影评 领域 
的 标注 时 间 。 


异 导 致 情感 分 类 模型 在 跨 领域 应 用 中 会 有 所 下 降 。 男 
外 ,在 不 同 的 领域 ,同样 的 特征 可 能 揭示 不 同 的 情感 极 
性 。 例 如 ,在 餐饮 评论 领域 ， 时 间 长 "倾向 于 表达 等 
待 上 荣 时 间 过 长 这 一 负面 情感 ;在 电子 产品 评论 领域 ， 
“时 间 长 " 则 更 倾向 于 表达 电池 待机 时 间 长 这 一 正 向 
情感 。 这 导致 餐饮 领域 的 情感 模型 在 应 用 到 电子 产品 
评论 领域 时 ,情感 分 类 效果 急剧 下 降 。 

为 了 解决 领域 跨度 环境 下 的 概念 漂移 (特征 漂 
移 ) 问 题 ,本 文选 择 亚马逊 在 书籍 .DVD 和 音乐 类 目下 
的 中 文 评论 作为 实验 数据 ,情感 分 析 作 为 研究 任务 , 提 
出 一 种 面向 跨 领域 的 深度 循环 神经 网 络 模 型 ( Cross 


[a 
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Domain Deep Recurrent Neural Network, CD-DRNN) , 以 
实现 不 同 领域 环境 下 的 知识 迁移 。 


1 相关 研究 


所 谓 跨 领域 文本 情感 分 析 , 是 指 特征 分 布 在 不 同 
领域 存在 差异 的 情况 下 ,利用 源 领域 和 目标 领域 之 间 
的 联系 ,将 源 领域 的 相关 知识 迁移 到 目标 领域 中 ,通过 
机 器 学 习 算法 实现 对 目标 领域 的 文本 情感 分 析 。 从 
究 视角 来 看 ,其 内 容 涉 及 不 同 领域 之 间 的 知识 迁移 号、 
机 器 学 习 '“ 和 情感 计算 "等 研究 问题 ,以 下 分 节 展 开 
论述 。 
1.1 ”知识 迁移 视角 的 跨 领域 文本 情感 分 析 

从 知识 迁移 的 视角 来 看 , 跨 领域 文本 情感 分 析 主 
要 解决 领域 跨度 环境 下 的 特征 分 布 差异 ,以 及 由 此 产 
生生 概念 漂移 (特征 漂移 ) 问题 ,其 方法 包括 特征 迁移 
适 配 ) .实例 迁移 (实例 适 配 ) 和 模型 迁移 (模型 
) 等 。 
号 特 征 迁 移 着 力 于 解决 源 领域 与 目标 领域 特征 空间 
二 致 的 问题 ,通过 特征 变换 将 目标 领域 数据 的 特征 
加 映射 到 与 源 领域 相同 的 向 量 空间 中 ,从 而 实现 迁 
BAJ ØA, J. Blister 等 人 提出 结构 对 等 学 习 


模型 迁移 是 指 在 源 领 域 和 目标 领域 共享 模型 或 者 
参数 ,从 而 实现 针对 目标 领域 的 文本 情感 分 析 。 例 如 ， 
X. Glorot 等 人 利用 一 种 深度 学 习 模 型 , 即 降 品 上 自 编码 
## (Stacked Denoising Autoencoder, SDAe) 对 多 领域 的 
无 标注 数据 进行 预 训练 ,利用 预 训练 模型 结合 源 领 域 
的 有 标注 文档 来 训练 情感 分 类 模型 ,该 模型 在 22 个 领 
域 的 分 类 效果 优 于 SCL 模型 与 SPA 模型 "” 。 尽 管 如 
此 ,SDAe 算法 存在 速度 较 慢 、 且 较 多 地 依赖 于 参数 初 
始 化 等 问题 。 有 研究 者 对 其 改进 ,提出 了 Marginal- 
izedSDAe 算法 "1 ,使 其 在 运行 速度 上 得 到 了 提高 。 由 
于 模型 迁移 方法 减少 了 对 枢纽 词汇 (或 领域 无 关 词 
汇 ) 和 源 领域 标注 数据 的 依赖 ,在 跨 领 域 文本 情感 分 析 
的 效果 上 ,结合 深度 学 习 的 模型 迁移 总 体 效 率 上 优 于 
传统 的 特征 迁移 和 样本 迁移 。 

1.2 机 器 学 习 视 角 的 跨 领域 文本 情感 分 析 

从 机 器 学 习 的 视角 来 看 , 跨 领 域 文本 情感 分 析 主 
要 包括 基于 图 模型 的 方法 .传统 统计 学 习 方 法 和 基于 
深度 学 习 的 方法 等 。 基 于 图 模型 的 方法 通常 将 源 领域 
和 目标 领域 的 词汇 抽象 为 节点 ,将 词汇 之 间 的 关系 ( 例 
如 共 现 关系 ) 抽 象 为 边 ,通过 一 定 算法 计算 节点 之 间 的 
相似 度 , 借 此 实现 对 目标 领域 的 情感 分 析 。SimRank 


( SBRctural Correspondence Learning, SCL) 模型 ,首先 
莅 券 领域 之 间 筛 选 出 一 些 具 有 共性 的 特征 词 ( 即 枢纽 
HÈ, PKH Pivot Words) ,然后 量化 其 与 正 负 向 情感 
乱用 之 间 的 关系 ,并 利用 传统 的 机 器 学 习 模型 对 量化 
RE AF EBL, Pan 等 人 提出 谱 特 征 对 齐 ( Spectral 


算法 "是 最 为 典型 的 图 模型 方法 ,其 基本 思想 是 : 节 
点 与 其 本 身 的 相似 度 最 高 ;如 果 两 个 节点 具有 更 多 相 
同 或 者 相似 的 邻居 节点 , 则 其 具有 更 高 的 相似 性 。 魏 
现 辉 等 人 对 SimRank 进行 改进 ,提出 了 加 权 SimRank 
算法 ,并 将 其 应 用 于 跨 领 域 情感 分 析 , 实 验 结果 验 


Feattre Alignment, SFA) JT” ,将 文本 特征 区 分 为 领 
域 相关 特征 和 领域 无 关 特征 ;以 领域 无 关 特 征 作为 主 
线 ,将 领域 相关 的 特征 聚 类 到 与 其 距离 最 小 的 领域 无 
关 特 征 之 上 。 上 述 方法 依赖 于 枢纽 词汇 (或 领域 无 关 
词汇 ) 在 不 同 领域 的 分 布 情况 , 若 其 分 布 过 于 稀 政 , 则 
很 难 获得 较 好 的 效果 。 

实例 迁移 是 指 从 源 领 域 中 尽 可 能 筛选 出 与 目标 领 
域 相 似 的 标注 数据 ,从 而 增 大 目标 领域 的 训练 数据 ,并 
将 其 应 用 到 目标 领域 的 情感 分 析 任 务 之 中 。 例 如 ,WW. 


证 了 加 权 模 型 的 有 效 性 。 

传统 统计 学 习 方 法 通常 在 给 定 源 领 域 和 目标 领域 
文本 的 情况 下 ,估计 目标 领域 文本 属于 某 个 情感 类 别 
的 条 件 概率 。 例 如 , 张 志 武 ”将 逻辑 回归 模型 (Logis- 
tic Regression, LR) 用 于 跨 领域 情感 分 析 , 实 验 结 果 表 
明了 该 模型 的 有 效 性 。 黄 瑞 阳 等 人 '"” 比较 了 朴素 贝 
叶 斯 方法 (Naive Bayes, NB) \ 文 持 向 量 分 类 方法 (Sup- 
port Vector Classification, SVC) 和 期 望 最 大 值 方法 (Ex- 
pectation Maximization, EM ) 在 路 领域 情感 分 析 中 的 应 


Dai 等 人 提出 了 TrAdaboost 方法 ,在 给 定 目标 领域 少量 
标注 文本 的 情况 下 ,通过 利用 大 量 源 领 域 的 标注 数据 ， 
构建 了 高 质量 的 文本 分 类 模型 " 。 马 风 闻 等 人 提出 
了 双重 策略 选择 策略 ,根据 源 领 域 的 样本 权重 进行 首 
次 选择 ,再 结合 分 类 置信 和 度 对 样本 进行 二 次 选择 。 其 
实验 结果 表明 ,该 模型 有 助 于 提高 整体 分 类 精度 …” 。 
实例 迁移 方法 依赖 于 源 领域 标注 样本 的 数量 , 若 其 数 
量 较 小 , 则 很 难 适 用 。 
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用 。 其 实验 结果 表明 ,EM 方法 效果 略 优 于 NB 方法 和 
SVC 方法 。R. Xia 等 人 利用 词性 标注 、 词 语 关 系 等 组 
合 特征 (Ensemble Features ) ,针对 朴素 贝 叶 斯 方法 、 最 
大 彤 模型 以 及 支持 向 量 机 模型 建立 组 合 模型 ,实验 效 
果 优 于 传统 的 单一 机 器 学 习 模 型 '” J. S. Deshmuke 
等 人 将 改进 的 最 大 炉 模 型 与 二 分 图 取 类 模型 相 结 合 ， 
针对 情感 词 分 类 取得 了 相对 较 高 的 准确 度 '”。 

基于 深度 学 习 的 方法 通常 将 源 领域 和 目标 领域 的 


China AeA 
CninaX IVa vERAT 


余 传 明 . 基于 深度 循环 神经 网 络 的 跨 领 域 文 本 情感 分 析 []. 图 书 情报 工作 ,2018 ,62 (11) :23 - 34. 


词汇 和 文本 以 较 低 维 度 的 向 量 ( 即 词 向 量 、 句 子 向 量 或 
文档 向 量 ) 来 表示 ,并 将 其 应 用 到 深度 学 习 算法 (例如 
深度 神经 网 络 ) 之 中 。D，Tang 等 人 '” 较 早 地 分 析 了 
深度 学 习 方法 在 情感 分 析 中 的 应 用 ,发 现 其 在 情感 分 
类 观点 抽取 和 情感 词典 构建 等 方面 优 于 传统 方法 。 
余 传 明 等 人 "结合 结构 对 等 学 习 模型 ,将 卷 积 神经 网 
络 模 型 应 用 到 跨 领域 情感 分 析 中 ,实验 结果 表明 深度 
学 习 模 型 在 较 多 指标 上 优 于 传统 模型 。J. Yu 等 人 
利用 深度 学 习 方 法 对 句子 进行 建 模 ,其 实验 结果 表明 ， 
深度 学 习 模型 优 于 传统 的 结构 对 等 学 习 模 型 。 由 于 深 
度 学 习 方法 能 够 更 好 地 揭示 和 获取 不 同 领域 文本 信息 
的 内 在 语义 表示 ,从 而 使 研究 者 脱离 繁琐 的 传统 特征 
工程 ,因而 总 体 上 优 于 传统 的 图 模型 方法 和 统计 学 习 
Tie. 


情感 计算 视角 的 跨 领域 文本 情感 分 析 
从 情感 计算 的 视角 来 看 , 跨 领 域 文本 情感 分 析 主 
要 创 括 词汇 情感 计算 .篇 章 情感 计算 和 句子 情感 计算 
等 习 跨 领域 词汇 情感 计算 ,是 指 在 不 同 的 领域 情况 下 ， 
词汇 表达 的 情感 是 否 为 讲义 (贬义 ) 。 例 如 , 吴 斐 
等 ”将 跨 领 域 情 感 词汇 计算 分 为 三 个 步骤, 即 : 基 
准 记 提取 (提取 具有 非常 明显 的 褒贬 倾向 的 代表 性 词 
并 ED 基准 词 消 歧 ( 判 断 基准 词 在 不 同 领域 的 情感 歧 
你 和 目标 词 情感 倾向 判断 (通过 计算 目标 词 和 基准 
词 简 相关 性 强度 来 判断 ) 。 冯 超 等 人 "" 在 深度 学 习 的 
SPRE ,提出 了 一 种 基于 词 向 量 相似 度 的 半 监 督 情 感 
词汇 极 性 判断 算法 (Sentiment Orientation from Word 
Vector, SO-WV) 。 其 实验 结果 表明 ,基于 词 向 量 的 模 


Y 为 于 传统 的 点 互信 息 (Pointwise Mutual Information， 
PMI) 方 法 和 标签 传播 (Label Propagation, LP) 算 法 。 
跨 领域 篇 章 情 感 计算 是 指 在 不 同 的 领域 情况 下 ， 
判断 文本 篇 章 所 表达 的 情感 是 否 为 讲义 (贬义 ) ,其 方 
法 包括 规则 和 统计 两 大 类 。 在 规则 方面 ,K，Denecke 
等 人 尝试 利用 领域 通用 的 情感 词汇 词典 (SentiWord- 
Net) 来 进行 跨 领域 篇 章 情 感 分 析 “ 。 其 实验 结果 表 
明 ,通过 领域 通用 的 情感 词汇 词典 ,结合 一 定 的 规则 
(例如 ,对 篇 章 内 的 情感 极 性 强度 进行 累加 求 和 ) ,在 
跨 领域 篇 章 情 感 分 析 上 的 效果 弱 于 越过 情感 词汇 词典 
而 直接 采用 统计 学 习 的 方法 ;在 统计 方面 ,从 简单 的 逻 
辑 回归 方法 “和 朴素 贝 叶 斯 方法 ”到 复杂 的 支持 向 
量 分 类 方法 和 期 望 最 大 值 方法 , 从 单一 学 习 模 


跨 领 域 句子 情感 计算 是 跨 领 域 篇 章 情 感 计算 的 一 
种 特殊 情况 (即将 句子 数量 限制 为 1) ,其 原理 和 方法 
与 篇 章 层次 类 似 , 此 处 不 再 展开 论述 。 综 合 在 词汇 .篇 
章 和 句子 等 层次 跨 领域 文本 情感 分 析 方 法 ,使 用 深度 
学 习 的 方法 总 体 上 优 于 传统 的 基于 词典 的 方法 和 基于 
规则 的 方法 。 

总 体 而 言 , 跨 领域 相对 于 不 跨 领域 ,难点 在 于 解决 
迁移 学 习 问 题 ; 从 非 情 感 分 析 到 情感 分 析 ,难点 在 于 改 
进 机 器 学 习 算法 。 由 于 深度 学 习 模 型 能 够 更 好 地 揭示 
和 获取 不 同 领域 文本 信息 的 内 在 语义 表示 ,在 解决 迁 
移 学 习 问 题 和 改进 机 器 学 习 算 法 等 方面 均 取 得 了 较 大 
的 优势 。 作 为 深度 学 习 模 型 的 一 种 重要 代表 ,循环 神 
经 网 络 “ 近年 来 得 到 了 越 来 越 多 的 应 用 。 典 型 的 循 
环 神经 网 络 包括 长 段 时 记忆 网 络 (Long Short Term 
Memory, LSTM ) 网 络 模型 .双向 长 短 时 记忆 网 络 (Bi- 
directional LSTM , Bi-LSTM) 模型 等 。 通 过 对 文献 进行 
搜索 ,目前 尚未 发 现 循环 神经 网 络 用 于 监 领域 情感 分 
析 的 实证 研究 。 尽 管 如 此 ,众多 的 实验 表明 ,LSTM 能 
够 有 效 地 提升 机 器 翻译 ,语言 建 模 ” 、 多 语言 信息 
处 理 ” 以 及 图 像 的 自动 化 标签 ( Automatic Image Cap- 
tioning) “效果 ;Bi-LSTM 在 中 文 分 词 ” 、 句 法 分 析 
和 词性 标注 ”方面 均 能 取得 较 好 的 效果 。 鉴 于 此 ,本 

尝试 将 循环 神经 网 络 引 入 到 跨 领域 文本 情感 分 析 的 
实证 研究 中 ,检验 其 在 解决 迁移 学 习 问 题 和 改进 机 器 
学 习 算 法 上 的 效果 ,以 期 为 相关 研究 提供 借鉴 。 


2 研究 问题 与 方法 


2.1 研究 问题 的 形式 化 定义 

本 文 的 研究 问题 为 :在 给 定 源 领 域 和 目标 领域 大 
量 无 标注 数据 以 及 源 领 域 的 少量 标注 数据 的 情况 下 ， 
如 何 更 好 地 利用 迁移 学 习 与 深度 学 习 理 论 来 解决 领域 
跨度 环境 下 的 概念 漂移 (特征 漂移 ) 问 题 ,在 篇 章 层次 
实现 对 目标 领域 的 文本 情感 分 析 。 有 具体 而 言 , 假 定 下 
ER s 表示 源 领 域 ,下 标 t 表示 目标 领域 ;D 表示 领域 集 
合 ;Train „Test U 分 别 表示 训练 集 、 测 试 集 和 无 标注 文 
档 , 则 上 述 问 题 可 以 描述 为 :给 定 源 领域 D. 中 的 有 标 
注 数据 集 Train, 和 无 标注 数据 集 U., 目标 领域 D, 中 的 
测试 集 Test, 和 无 标注 文档 U, ,使 用 Train, 、U,、U, 以 及 
提出 的 模型 实现 对 Test, 的 情感 分 类 。 

为 简化 描述 ,下 文 使 用 D, 一 D, 表示 源 领域 到 目标 


型 ” ”到 组 合 学 习 模 型 ”、 从 传统 机 器 学 习 ”到 深 
度 学 习 '” , 跳 过 情感 词汇 词典 而 直接 采用 统计 学 习 的 
方式 成 为 跨 领域 篇 章 情感 计算 的 主流 。 


领域 的 领域 迁移 学 习 。 对 于 源 领 域 和 目标 领域 ,为 了 
便于 与 前 人 的 研究 结果 进行 对 比 ,本 文选 择 在 路 领域 
研究 中 使 用 较 多 的 三 个 领域 , 即 : 书 籍 .DVD 和 音乐 ， 
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下 文 分 别 使 用 Book DVD 和 Music 来 表示 。 
2.2 CD-DRNN 模型 结构 

本 文 在 深度 学 习 和 迁移 学 习 的 理论 基础 上 ,提出 
CD-DRNN 模型 ,其 基本 思路 为 :首先 利用 深度 学 习 模 
型 来 进行 跨 领域 表示 学 习 , 构 建 一 个 领域 无 关 的 特征 
空间 ,并 将 不 同 领域 的 特征 表示 投影 到 共同 的 空间 中 ; 
通过 堆 二 式 双向 长 短 时 记忆 网 络 对 源 领 域 的 标注 数据 
进行 监督 学 习 , 在 每 一 层 以 正 向 和 反 向 的 顺序 学 习 上 


(batch_size ) 的 用 户 评论 集合 , 取 长 度 s 作为 当前 输入 
文档 集合 的 统一 长 度 。 如 果 长 度 文档 小 于 s, 则 以 零 十 
充 。 

2.2.2 表示 学 习 层 “在 表示 学 习 层 ,模型 将 源 领 域 和 
目标 领域 文档 中 的 词 投 射 到 共同 的 d 维 空间 , 即 生成 
维度 为 d 的 词 向 量 ( Word Vector) ;同时 ,模型 将 每 条 评 
论 视 作 一 个 文档 ,为 其 生成 维度 为 d 的 文档 向 量 ( Doc 
Vector) 。 在 表示 学 习 过 程 中 ,模型 利用 词 向 量 和 文档 


一 层 的 输出 序列 ,在 任意 时 刻 t, 模 型 捕获 正 向 和 逆向 
的 上 下 文 信息 ,经 过 层 层 抽取 的 特征 最 终 输 入 激活 单 
元 进行 情感 识别 ;将 模型 与 参数 共享 到 目标 领域 ,对 目 
标 领 域 的 无 标注 数据 进行 情感 分 析 , 并 与 正确 结果 进 
行 对 比 。 从 方法 和 路 线 上 来 看 ,在 知识 迁移 方面 ,采用 
模型 迁移 的 方式 ,在 源 领域 和 目标 领域 共享 堆 簿 式 双 

向 各 短 时 记忆 网 络 模型 和 参数 ;在 机 器 学 习 方面 ,采用 
“深度 表示 学 习 + 堆 敌 式 双向 长 短 时 记忆 网 络 模型 ” 
的 型 合 方 式 , 即 利用 无 监督 的 预 训练 方式 对 源 领域 和 
二 鸡 领 域 的 无 标注 数据 进行 表示 学 习 , 提 取 两 个 领域 
的 莫 同 语义 特征 ,将 共同 语义 特征 加 载 到 双向 长 短 时 
诈 加 网 络 单元 ,多 层 逐 步 累 计 , 最 后 作为 激活 层 单元 的 
给; 在 情感 计算 方面 ,利用 知识 迁移 与 深度 学 习 模 型 
对 句 领 域 文本 在 篇 章 层 次 上 进行 情感 分 析 。 

Ncp prNy 模型 结构 如 图 1 所 示 ,其 架构 包括 输入 
input Layer) .表示 学 习 层 ( Representation Learning 
Later) \ 双向 长 短 时 记忆 网 络 层 (Bi-directional Long 
Show Time Memory Layer) 以 及 激活 函数 层 ( 即 输出 层 ， 
Olifpit Layer) ,以 下 分 节 展开 论述 。 


O 


>| IS™ 反 向 LSTM | < 
>| LSTM | 反 向 LSTM | « 
a a 
= 
>| LSTM 反 向 LSTM | 4 


4 
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路 领域 词 向 量 
” kA 


1 CDDRNN 模型 结构 


2.2.1 输入 层 在 输入 层 ,模型 同时 接受 源 领 域 和 目 
标 领 域 文 档 作 为 模型 的 输入 。 针 对 每 个 批 处 理 大 小 
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向 量 ( 下 文 统一 简称 为 Word2Vec) 来 预测 源 领 域 和 目 
标 领 域 之 中 句子 中 出 现 的 下 一 个 单词 。 在 本 文 实验 
中 ,使 用 平均 作为 组 合 向 量 的 方法 ,利用 上 述 建立 的 语 
料 进行 训练 以 获得 相关 的 向 量 和 参数 。 在 模型 启动 阶 
段 ,文档 向 量 和 词 向 量 被 随机 初始 化 ,通过 定义 深度 学 
习 中 的 损失 函数 ( 即 量化 预测 值 与 实际 值 之 间 的 差 
距 ) 和 采用 一 定 的 优化 方法 (例如 随即 梯度 下 降 方 法 ， 
Stochastic Gradient Descending ) , 最终 获得 文档 向 量 和 
词 向 量 作为 上 述 预 测 任务 的 间接 产物 。 假 定语 料 库 中 
包含 N 篇 评论 ,词汇 表 中 包含 M 个 单词 , 则 模型 总 共 
有 Nxd + Mxd 参 数 。 当 N 和 M 的 值 较 大 时 ,参数 
的 数量 可 能 也 较 大 ,参数 更 新 在 训练 期 间 通 常 具 有 稀 
玻 性 。 值 得 说 明 的 是 , 词 向 量 和 文档 向 量 同时 从 未 标 
记 的 源 领域 和 目标 领域 数据 学 习 , 能 够 获取 两 个 领域 
的 共同 特征 ;特征 的 获取 以 通过 上 下 文 预测 单词 作为 
切入 点 ,能 够 脱离 繁重 的 人 工 标 注 过 程 。 男 外 ,在 学 习 
过 程 中 ,模型 能 够 在 小 的 语 境 中 考虑 到 单词 顺序 ,这 点 
与 n-gram 模型 方式 相同 ,n-gram 模型 保留 了 段落 的 大 
量 信息 ,包括 单词 顺序 。 由 于 传统 的 n-gram 模型 往往 
需要 创建 一 个 非常 高 维 的 表示 ,而 表示 学 习 模 型 能 够 
创建 一 个 相对 低 维 的 表示 ,因此 表示 学 习 模 型 相 比 于 
传统 的 n-gram 模型 ,具有 更 好 的 推广 性 能 。 

2.2.3 双向 长 短 时 记忆 网 络 层 “在 针对 源 领 域 和 目 
标 领域 所 学 习 的 共同 特征 的 基础 上 ,建立 多 层 堆 全 长 
短 时 记忆 网 络 ,每 一 层 通 过 连接 两 个 LSTM( BI IE 
LSTM 和 反 向 LSTM) 来 完成 建 模 。 其 中 , 正 向 LSTM 与 
传统 LSTM 读 取 方 式 相同 , 反 向 LSTM 则 以 逆序 方式 来 
读 取 输入 序列 。 每 个 LSTM 网 络 均 由 输入 门 、 输 出 门 、 
遗忘 门 和 记忆 单元 构成 。 这 些 控制 门 和 记忆 单元 的 组 
合 能 够 更 好 地 表示 和 控制 针对 输入 序列 的 长 期 . 远 期 
和 近期 的 记忆 ,增强 了 模型 处 理 远 距离 依赖 的 能 力 。 
在 任意 时 刻 t, 模 型 可 以 捕获 到 历史 和 未 来 的 上 下 文 信 
息 。 双 向 长 短 时 记忆 网 络 为 多 层 ,在 第 一 层 双向 LSTM 
基础 上 ,再 个 加 一 层 双向 LSTM, 即 : 把 第 一 层 双 向 
LSTM 的 输出 作为 第 二 层 双 向 LSTM 神经 网 络 层 相 应 
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节点 的 输入 ;把 第 二 层 双 向 LSTM 的 输出 作为 第 三 层 
双向 LSTM 神经 网 络 层 相应 节点 的 输入 ;以 此 类 推 。 
由 于 在 相 邻 的 层级 之 间 ,双向 LSTM 在 结构 上 具有 一 
一 对 应 关系 ,因此 从 实验 操作 上 能 够 较 好 地 赦 加 。 
2.2.4 输出 技 输出 层 由 激活 单元 构成 ,经 过 层 层 抽 
取 的 特征 最 终 输入 激活 单元 进行 情感 分 类 。 通 过 激活 
单元 得 到 一 个 N 维 的 向 量 ,其 中 ,向 量 的 第 一 个 值 为 当 
前 评论 属于 第 一 类 的 概率 值 ;向 量 中 的 第 二 个 值 为 当 
前 评论 属于 第 二 类 的 概率 值 ;后续 以 此 类 推 。 

在 本 文中 ,模型 运行 所 需要 设置 的 参数 如 表 1 所 


ZN: 
表 1 CDJDRNN 模型 参数 设置 

为 了 与 对 比 算法 中 的 模型 保持 一 致 ,将 词 向 量 维度 
统一 设置 100 
档 表 示 维 度 为 了 与 对 比 算法 中 的 模型 保持 一 致 ,将 文档 向 量 维 
j] 度 统 一 设置 100 
| 文档 长 度 考虑 算法 空间 消耗 和 尽 可 能 保留 原始 评论 数据 , 采 
用 评论 长 度 的 较 大 值 120 
MERIN 32 

J> 初始 值 为 0.1, 使 用 adam 优化 算法 在 模型 训练 过 
TEP ,为 参数 分 配 不 同 的 学 习 率 
随机 初始 化 方法 
(EZEL RIR FE AA PRL 
adam 
络 激活 函数 sigmoid 
网络 输出 维度 50 
TM 网 络 层 数 3 


penn) EE 


激活 函数 sigmoid 
Epoch 训练 阶段 将 模型 训练 50 个 epoch 
P ) 验证 集 预 训练 时 分 别 使 用 两 个 领域 下 无 标注 文档 中 的 
Bá 10% 作为 验证 集 


2.3 对 比方 法 

本 文 将 提出 的 模型 与 基线 方法 进行 比较 ,选择 了 
较 具 有 代表 性 的 3 种 单一 机 器 学 习 模 型 (支持 向 量 分 
类 模型 逻辑 回归 模型 和 决策 树 模型 )、3 种 组 合 机 器 
学 习 模 型 ( 随机 森林 模型 装 袋 模型 和 Adaboost 模型 ) 
和 3 种 循环 神经 网 络 模型 ( 栈 式 长 短 时 记忆 模型 ,双向 
长 短 时 记忆 模型 和 卷 积 神经 网 络 - 长 短 时 记忆 网 络 组 
合 模型 ( 含 串 联 和 并 联 两 种 组 合 方式 ) ) 。 在 特征 抽取 
方面 ,选取 了 最 具有 代表 性 的 传统 词 频 逆 文档 频率 方 
法 ,将 其 与 深度 学 习 中 的 词 向 量 方法 对 比 。 在 使 用 传 
统 特征 工程 方法 抽取 源 领 域 .目标 领域 的 词汇 过 程 中 ， 
为 了 使 其 与 CD-DRNN 及 其 他 基线 方法 保持 一 致 ,使 用 
主 成 分 分 析 法 将 维度 降 为 100; 在 使 用 深度 表示 学 习 
方法 抽取 源 领域 .目标 领域 的 词汇 过 程 中 ,为 了 使 其 与 


CD-DRNN 及 其 他 基线 方法 保持 一 致 ,统一 将 词 向 量 与 
文档 向 量 维度 设置 为 100。 具 体 情况 如 下 : 

(1) 基于 跨 领域 词 频道 文档 频 记 (Term Frequency 
Inverse Document Frequency, TFIDF) 的 机 器 学 习 方法 。 
利用 源 领域 和 目标 领域 的 训练 集 以 及 无 标注 评论 集 构 
建 词典 (词典 大 小 为 93 000) ,并 计算 词汇 的 TFIDF $X 
重 ;针对 源 领域 训练 集 , 利 用 主 成 分 分 析 ( Principal 
Component Analysis, PCA) [3] 把 特征 维度 从 93 000 维 
降 为 100 维 ; 把 降 维 后 的 训练 数据 输入 传统 的 机 器 学 
习 模 型 ,包括 支持 向 量 机 分 类 ( Support Vector Classifi- 
cation, SVC)! 模型 .逻辑 回归 ( Logistic Regress, 
LR) ”模型 RER (Decision Tree, DT) ”模型 .随机 
森林 (Random Forest, RF) 138] 模型 be 4S ( Bagging ) [39] 
模型 以 及 Adaboost ”模型 ;利用 主 成 分 分 析 对 目标 领 
域 的 测试 集 进行 降 维 ,再 利用 训练 好 的 机 器 学 习 模 型 
对 其 进行 分 类 。 

(2) 基 于 路 领域 词 向 量 (Word Embedding, 
WE) ”的 机 器 学 习 方法 。 利 用 源 领域 和 目标 领域 的 
训练 集 以 及 无 标注 评论 集训 练 词 向 量 ( 维 度 为 100 ) ; 
将 源 领域 的 评论 转化 为 词 向 量 作为 训练 数据 输入 传统 
的 机 器 学 习 模 型 ,包括 SVC LR DT RF, Bagging 以 及 
Adaboost 等 ;针对 目标 领域 的 评论 ,利用 训练 好 的 机 器 
学 习 模 型 输入 词 向 量 进行 测试 。 

(3 ) 栈 式 长 得 时 记忆 模型 (Stacked Long Short Term 
Memory, Stacked-LSTM) ”模型 , 即 以 多 层 的 形式 堆 琶 
LSTM 模型 ,底层 LSTM 的 隐 含 状态 输出 作为 高 层 
LSTM 的 输入 。 将 源 领域 的 评论 转化 为 词 向 量 作为 训 
练 数据 输入 Stacked -LSTM 模型 ;针对 目标 领域 的 评 
论 ,利用 训练 好 的 Stacked -LSTM 模型 输入 词 向 量 进行 
测试 。 

(4) 双 向 长 短 时 记忆 模型 ( Bidirectional Long Short 
Term Memory, ，Bi -LSTM ) [20] 模型 , 即 在 LSTM 模型 的 基 
础 上 添加 反 向 (将 输入 逆序 处 理 ) 学 习 过 程 。 将 源 领 
域 的 评论 转化 为 词 向 量 作为 训练 数据 输入 Bi-LSTM 模 
型 ;针对 目标 领域 的 评论 ,利用 训练 好 的 Bi-LSTM 模型 
输入 词 向 量 进 行 测试 。 

(5) 卷 积 神经 网 络 与 长 短 时 记忆 模型 串联 ( Convo- 
lution Neural Network combined with Long Short Term 
Memory, CNN-LSTM) ”模型 , 即 在 LSTM 模型 的 前 端 
添加 卷 积 和 池 化 过 程 ,以 提取 更 加 准确 的 特征 。 将 源 
领域 的 评论 转化 为 词 向 量 作为 训练 数据 输入 CNN - 
LSTM 模型 ;针对 目标 领域 的 评论 ,利用 训练 好 的 CNN - 
LSTM 模型 输入 词 向 量 进行 测试 。 
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《6) 卷 积 神经 网 络 与 长 短 时 记忆 并 联 (Convolution 为 训练 数据 输入 Merged -CNN -LSTM 模型 ;针对 目标 领 
Neural Network merged with Long Short Term Memory, 域 的 评论 ,利用 训练 好 的 Merged -CNN -LSTM 模型 输入 
Merged-CNN-LSTM ) 模 型 , 即 在 LSTM 模型 的 侧 端 添加 ”” 词 向 量 进行 测试 。 

卷 积 和 池 化 过 程 ,将 共同 学 习 到 的 特征 作为 激活 函数 在 本 文中 ,基线 方法 运行 所 需要 设置 的 参数 如 表 
(Activation) 的 输入 。 将 源 领 域 的 评论 转化 为 词 向 量 作 2 所 示 : 
表 2 基线 方法 的 参数 设置 


方法 参数 
TFIDF + PCA +SVC(LR/DT/ 在 抽取 源 领域 .目标 领域 的 词汇 过 程 中 ,形成 词典 大 小 为 93 000; 利 用 主 成 分 分 析 法 降 维 ,为 了 与 其 他 基线 方法 保持 一 致 , 维 
RF/Bagging/ Adaboost ) 度 降 为 100;SVcC 方法 中 ,惩罚 参数 C 设置 为 1, 核 函数 为 径 向 基 核 函数 (Radial Basis Function, RBF) ;LR 方法 中 ,惩罚 参数 
C 设置 为 1 ,惩罚 方式 设置 为 ;DT 方法 中 ,特征 选择 标准 为 gini, 特征 划分 为 在 特征 的 所 有 划分 点 中 找 出 最 优 的 划分 点 ; 


RF 方法 中 ,最 大 的 弱 学 习 器 的 个 数 为 10;Bagging 方法 中 ,基本 估计 器 设置 为 K 最 近邻 分 类 器 (K-Nearest Neighbors, KNN) ; 
Adaboost 方法 中 ,最 大 的 弱 学 习 器 个 数 为 100 


WE + SVC (LR/DT/RF/Bag- ”利用 源 领 域 和 目标 领域 的 训练 集 以 及 无 标注 评论 集训 练 跨 领 域 词 向 量 ,为 了 与 CD-DRNN 模型 进行 对 比 , 维 度 设置 为 100; 


ging/ Adaboost) 各 种 基线 机 器 学 习 方 法 的 参数 设置 与 TFIDF 情境 下 的 设置 相同 
Stacked LSTM 词 向 量 维度 100; 文 档 向 量 维度 100; 评 论 长 度 为 120; 批 处 理 大 小 为 32; 优 化 方法 为 adam; 使 用 交叉 入 (Cross Entropy) KAERA K 


数 ;激活 函数 为 sigmoid; 预 训练 时 分 别 使 用 源 领 域 和 目标 领域 下 无 标注 文档 中 的 10% 作为 验证 集 
词 向 量 维度 100; 文 档 向 量 维度 100; 评 论 长 度 为 120; 批 处 理 大 小 为 32; 优 化 方法 为 adam; 使 用 交叉 焙 来 定义 损失 函数 ;激活 函数 为 
sigmoid ;训练 阶段 将 模型 训练 50 个 epoch ; 预 训练 时 分 别 使 用 源 领 域 和 目标 领域 下 无 标注 文档 中 的 10% 作为 验证 集 
卷 积 神 经 网 络 与 长 短 时 记忆 网 络 采取 串联 的 形式 ; 卷 积 层 采 用 一 维 卷 积 , 卷 积 长 度 为 3,filter 数量 为 1 ,激活 函数 为 Relu , 步 
长 为 1; 池 化 层 采 用 最 大 池 化 方法 (Max Pooling) , 池 化 长 度 为 4; 网 络 Drop_out 比率 为 0.2; 分 类 层 激活 函数 为 sigmoid ; 词 向 
量 维度 100 ;文档 向 量 维度 100 ;评论 长 度 为 120; 批 处 理 大 小 为 32; 优 化 方法 为 adam; 使 用 交叉 凡 来 定义 损失 函数 ;激活 函数 
为 sigmoid ; 预 训练 时 分 别 使 用 源 领 域 和 目标 领域 下 无 标注 文档 中 的 10% 作为 验证 集 
卷 积 神 经 网 络 与 长 短 时 记忆 网 络 采取 并 联 的 形式 ; 卷 积 层 采 维 卷 积 , 卷 积 长 度 为 3,filter 数量 为 1 ,激活 函数 为 Relu, 步 
长 为 1; 池 化 层 采 用 最 大 池 化 方法 (Max Pooling) , 池 化 长 度 为 4; 网 络 Drop_out 比率 为 0.2; 分 类 层 激活 函数 为 sigmoid ; 词 向 
量 维度 100 ;文档 向 量 维度 100 ;评论 长 度 为 120; 批 处 理 大 小 为 32 ;优化 方法 为 adam; 使 用 交叉 业 来 定义 损失 函数 ;激活 函数 
为 sigmoid; 预 训练 时 分 别 使 用 源 领 域 和 目标 领域 下 无 标注 文档 中 的 10% 作为 验证 集 


— F n A wW Pa EK `, 
3 试验 及 分 析 表 3 各 领域 评论 文本 长 度 统计 


领域 最 大 长 度 最 小 长 度 平均 长 度 长度 标准 差 


Book 1104 1 19.0 33.00 
DVD 741 1 19.0 34.77 
下 俩 中 文 评论 ,每 条 用 户 评论 对 应 由 一 星 至 五 星 表 Musie 799 | 18.0 305l 


示 码 用 户 评分 ,该 评分 表达 了 用 户 对 产品 的 满意 各 对 三 个 领域 的 原始 评论 数据 的 长 度 占 比 进行 了 统 
度 C5 将 三 星 以 上 的 用 户 评论 标注 为 正 向 评论 ,三 星 。 计 ,结果 如 图 2 所 示 。 可 以 看 出 ,三 个 领域 在 各 个 区 间 
以 下 的 评论 标注 为 负 向 评论 ,去 除 三 性 痉 论 ,以 此 进 。 上 所 占 的 比例 呈现 较 强 的 一 致 性 ,具体 而 言 ; 评 论 长 度 
行文 本 情感 分 析 研 究 。 每 个 领域 中 的 评论 划分 为 训 最 多 地 分 布 在 [0,10) 和 [10,30) 两 个 区 间 , 其 次 为 
SR WR AE KA. KEBLE RAM — (39.50) 40(50,100) ARRAN. SE 


DVD 每 个 领域 训练 集 包括 3 000 条 评论 ( 正 负 向 情 。 法 空间 消耗 和 尽 可 能 保留 原始 评论 数据 ,本 文 在 后 续 


感 类 别 各 1 500 条 ) ,测试 集 包括 1 000 条 评论 ( 正 负 各 种 模型 (包括 基线 模型 以 及 CD -RNN 模型 等 ) 对 评 
向 情感 类 别 各 500 条 ) ,无 标注 集合 共 包 括 约 130 000 论 长 度 取 其 较 大 值 为 120。 
条 评论 。 3.2 实验 结果 

对 三 个 领域 的 原始 评论 数据 的 长 度 进行 了 统计 ， 3.2.1 基于 跨 领 域 TFIDF 的 机 器 学 习 方 法 ”本 节 采 
结果 如 表 3 所 示 。 其 中 ,书籍 领域 评论 的 最 大 长 度 为 ! 。 用 受 试 者 工作 特征 曲线 ( Receiver Operating characteris- 
104 ,平均 长 度 为 19;DVD 领域 评论 的 最 大 长 度 为 741 ， tic Curve, ROC) 以 及 曲线 下 面积 (Area Under the 


平均 长 度 为 19 ;音乐 领域 评论 的 最 大 长 度 为 759 ,平均 Curve, AUC) 来 衡量 各 种 方法 的 效果 ,各 模型 所 得 到 的 


长 度 为 18 。 从 评论 长 度 来 看 ,书籍 和 DVD 领域 相同 ， Roc 曲线 以 及 AUC 面积 如 图 3 所 示 。 由 图 3 可 以 看 
音乐 领域 最 短 ;从 评论 长 度 标准 差 来 看 ,DVD 评论 长 ”出 ,在 Book» DVD .DVD 一 Book , Music— Book , Book —> 


度 的 变化 较 大 , 其 次 为 书籍 领域 ,音乐 领域 则 变化 Music .Music_*DVD 以 及 DVD_*Music 等 六 项 跨 领域 情 
最 小 。 感 分 析 实验 中 ,LR 模型 取得 了 最 好 的 效果 ， 其 六 项 实 
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图 2 各 领域 文本 评论 长 度 占 比 统计 


SVC_area = 0.82 
LR_area = 0.84 
DT_area = 0.67 
RF_area = 0.79 
Bagging_area = 0.73 
Adaboost_area = 0.83 


“0.0 0.2 04 0.6 0.8 1.0 


Book—DVD(TFIDF+PCA) 


— SVC_area=0.91 
-- LR_area=0,91 
--- DT area = 0.74 
RF_area = 0.87 
+ Bagging area = 0.80 
Adaboost_area = 0.86 


Music Book(TFIDF+PCA) 


— SVC_area = 0.88 

=-=- LR area =0.90 

--- DT area=071 
RF_area = 0.83 


+ Bagging area = 0.79 
Adaboost_area = 0.86 


Music DVD(TFIDF+PCA) 


验 所 得 到 的 AUC 面积 分 别 为 0. 84 .0. 87 0. 91.0. 83, 
0.90 和 0.84( 均 值 为 0.865 ) ; SVC 模型 取得 了 仅 次 于 
LR 模型 的 效果 ,其 六 项 实验 所 得 到 的 AUC 面积 分 别 
为 0. 82,0. 86,0. 91,0. 81,0. 88 Fil 0. 83 (均值 为 
0.852) ;居于 第 三 位 的 是 Adaboost 模型 ,其 六 项 实验 所 
得 到 的 AUC 面积 分 别 为 0. 83 .0. 82 .0. 86 .0. 81 .0. 86 
和 0. 82( 均 值 为 0.833) ; RF 模型 和 Bagging 两 种 组 合 
模型 分 别 取 得 了 排名 第 四 位 和 第 五 位 的 效果 ,两 种 模 
型 在 六 项 实验 所 得 的 AUC 面积 均值 分 别 为 0.812 和 
0.757; DT 模型 效果 最 弱 , 其 六 项 实验 所 得 到 的 AUC 
面积 分 别 为 0.67 .0.67 0.74 0.68 .0.71 和 0. 68 (均值 
为 0.733 ) 。 


— SVC area=0.86 
-- LR_area=0.87 
--- DT_area = 0.67 
RE_area = 0.81 
* Bagging area = 0.76 
Adaboost_area = 0.82 
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DVD 一 Book(TFIDF+PCA) 


— SVC_area=0.81 
-- LR area=0.83 
DT_area = 0.68 
RF_area = 0.77 
+ Bagging area = 0.72 
Adaboost_area = 0.81 


Book— Music(TFIDF+PCA) 


— SVC_area=0.83 
=- LR_area = 0.84 
-- DT area = 0.68 
RF_area = 0.80 


+ Bagging area = 0.74 
Adaboost_area = 0.82 


DVD 一 Music(TFIDF+PCA) 


3 基于 TEIDF + PCA 的 跨 领 域 情感 分 析 
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从 分 组 实验 结果 来 看 ,各 种 算法 在 不 同 分 组 实验 
( 即 源 领域 和 目标 领域 变化 时 ) 之 间 的 适 配 效 果 呈 现 
差异 性 。Music 一 Book 这 一 组 实验 在 SVC .LR DT RF, 
Bagging 以 及 Adaboost 六 种 算法 中 均 取 得 了 最 好 的 效 
果 , 排 在 其 后 的 依次 为 Music 一 DVD .DVD 一 Book DVD 
一 Music Book 一 DVD 和 Book 一 Music。 这 表明 源 领 域 


-一 SVC_area=0.81 
-- LR area=0.81 
-z DT_area = 0.61 
RF_area = 0.72 
* Bagging area = 0.72 
Adaboost_area = 0.78 


ok 
0.0 0.2 04 0.6 0.8 1.0 


Book—DVD(Word2Vec) 


— SVC_area = 0.90 
-- LR_area=0.88 
- DT area = 0.64 
RF_area = 0.78 
* Bagging area = 0.80 
Adaboost_area = 0.85 
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Music—Book(Word2Vec) 
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— SVC_area=0.86 

~--  LR_area=0.85 

--- DT area = 0.64 
RF_area = 0.74 


* Bagging area = 0.76 
Adaboost_area = 0.81 


0.0 0.2 0.4 0.6 0.8 1.0 


Music DVD(Word2Vec) 


和 目标 领域 的 选择 对 跨 领域 的 文本 情感 分 析 具有 一 定 
的 影响 ; 当 源 领域 和 目标 领域 发 生变 化 时 ,模型 的 分 类 
效果 会 产生 相应 改变 。 

3.2.2 ”基于 路 领域 词 向 量 的 机 器 学 习 方法 “采用 


ROC 和 AUC 来 衡量 各 种 模型 的 效果 ,各 模型 所 得 到 的 
ROC 曲线 以 及 AUC 面积 如 图 4 所 示 : 


— SVC area=0.84 
=-=- LR area=0.87 
--- DT _area = 0.59 
RF_area = 0.70 
* Bagging area = 0.77 
Adaboost_area = 0,81 


"0.0 02 04 06 08 10 


DVD 一 Book(Word2Vec) 


SVC_area = 0.84 
LR_area = 0.83 
DT_area = 0.58 
RE_area = 0.72 

* Bagging area = 0.74 
Adaboost_area = 0.82 


Book— Music(Word2Vec) 


-一 SVC_area=0.81 

-- LR _area = 0.82 

-= DT area = 0.59 
RF_area = 0.69 


* Bagging area = 0.71 
Adaboost_area = 0.78 


0.0 0.2 0.4 0.6 08 1.0 
DVD— Music(Word2Vec) 


4 基于 词 向 量 的 跨 领 域 情感 分 析 


从 图 4 可 以 看 出 ,在 Book—DVD DVD 一 Book , Mu- 
sic—>Book ,Book—> Music .Music—>DVD 以 及 DVD 一 Mu- 
sic 等 六 项 监 领域 情感 分 析 实 验 中 ,SVC 模型 和 LR 模 
型 取得 了 最 好 的 效果 ,二 者 在 六 项 实验 所 得 到 的 AUC 
面积 均值 都 为 0. 843; Adaboost 模型 取得 了 仅 次 于 
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SVC 和 LR 模型 的 效果 ,其 六 项 实验 所 得 到 的 AUC A 
积分 别 为 0.78 0. 81 0. 85 .0.82.0.81 和 0.78( 均 值 为 
0. 808 ) ;居于 第 四 位 的 是 Bagging 模型 ,其 六 项 实验 所 
得 到 的 AUC 面积 分 别 为 0.72 .0.77 .0. 80.0. 74 ,0. 76 
和 0.71( 均 值 为 0.750) ;居于 第 五 位 的 是 RF 模型 ,其 


余 传 明 . 基于 深度 循环 神经 网 络 的 跨 领域 文本 情感 分 析 []]. 图 书 情报 工作 ,2018 ,62( 11) :23 - 34. 


六 项 实验 所 得 到 的 AUC 面积 分 别 为 0.72 .0.70 0. 78 , 
0.72 0.74 和 0.69( 均 值 为 0.725) ;DT 模型 效果 最 弱 ， 
其 六 项 实验 所 得 到 的 AUC 面积 分 别 为 0. 61 .0. 59、 
0.64 .0.58 .0.64 和 0.59( 均 值 为 0.608) 。 

对 比 图 3 和 图 4 的 结果 ,可 以 看 出 ,相对 于 基于 
TFIDF 的 跨 领域 机 器 学 习 模 型 ,基于 词 向 量 的 方法 未 能 
有 效 提升 跨 领域 机 器 学 习 的 效果 。 在 Music— Book, 
Book 一 DVD 和 DVD 一 Music 等 分 组 测试 中 ,基于 词 向 量 
在 SVC、LR、DT、RF、Bagging 以 及 Adaboost 六 种 算法 上 
的 效果 还 有 所 下 降 ( 相 较 于 基于 TFIDF 的 方法 )。 从 图 
3 和 图 4 的 对 比 实验 结果 可 以 看 出 ,仅仅 通过 跨 领 域 的 
词 向 量 学 习 , 并 不 能 十 分 有 效 地 获取 两 个 领域 的 共同 特 
征 。 在 传统 的 跨 领 域 词 向 量 学 习 的 基础 上 ,有 必要 加 入 
引入 更 多 的 特征 抽取 机 制 (例如 多 层 双 向 长 短 时 记忆 网 
络 等 ) ,来 提升 跨 领 域 知识 迁移 与 特征 映射 的 效果 。 
P ”基于 循环 神经 网 络 模型 的 方法 ”由 于 循环 神 
统 岗 络 模型 通常 以 批 处 理 ( Batch -wise) 形式 来 进行 测 
斌 SAUC FI ROC 的 值 通常 取决 于 测试 集合 中 各 分 块 
( Batch ) 的 随机 划分 。 为 了 使 测试 结果 具有 更 好 的 可 
再 现 性 ( Reproducibility) ,在 循环 神经 网 络 部 分 ,采用 
MEIRE (Accuracy, Ace) RUE KRAE, 

ORA 显示 了 各 种 循环 神经 网 络 模型 (包括 Stacked- 
LSTM ,Bi-LSTM , CNN -LSTM , Merged -CNN -LSTM 以 及 


CD-DRNN ) 、 跨 领域 TFIDF 机 器 学 习 模 型 (包括 TFIDF 

+ PCA + SVC, TFIDF + PCA + LR TFIDF + PCA + DT, 
TFIDF + PCA + RF TFIDF + PCA + Bagging 和 TFIDF + 
PCA + Adaboost ) 和 路 领域 词 向 量 机 器 学 习 模 型 (包括 
WE + SVC WE+LR WE+DT WE+RF WE+Bagging 
和 WE + Adaboost ) 在 Book 一 DVD , DVD— Book , Music 
— Book , Book 一 Music 、 Music 一 DVD 以 及 DVD 一 Music 
等 六 项 监 领域 情感 分 析 实 验 中 的 结果 。 在 表 4 中 , 黑 
色 加 粗 字 体 部 分 为 每 一 项 实验 通过 上 述 各 种 方法 所 取 
得 的 最 大 值 , 最 右 一 列表 示 各 种 算法 在 六 项 实验 中 所 
取得 的 平均 值 。 

由 表 4 可 以 看 出 ,在 DVD 一 Book Music— Book , 
Music 一 DVD 以 及 DVD 一 Music 四 项 试验 中 ,CD-DRNN 
取得 最 高 的 Acc 值 ,分 别 为 81.50% .86. 10% .85.30% 
和 78.20% ;在 Book 一 DVD 以 及 Book— Music 两 项 实 
验 中 ,Merged-CNN-LSTM 和 Stacked -LSTM 取得 了 最 高 
的 Ace 值 ,分 别 为 82.50% Fil 78.50% 。 从 六 项 实验 取 
得 的 平均 值 来 看 ,各 种 循环 神经 网 络 模型 按照 效果 从 
高 到 低 排 列 依次 为 CD-DRNN(81.70% ) ,Merged-CNN - 
LSTM( 80. 90% )、Bi -LSTM (80. 50% ) 、Stacked -LSTM 
(79.90% ) .CNN-LSTM (74. 70% ) ,这 表明 本 文 所 提出 
的 模型 能 够 更 好 地 进行 跨 领域 的 文本 情感 分 析 , 从 而 
验证 了 该 模型 有 效 性 。 


表 4 ” 跨 领 域 情感 分 析 的 比较 研究 结果 


2 SS 算法 \ 领 域 变化 


Book—DVD DVD 一 Book Music 一 Book Book 一 Music Music 一 DVD DVD 一 Music Average 
NpIDF + PCA + SVC 0.517 0.513 0.556 0.517 0.563 0.521 0.531 
p SFIDF + PCA + LR 0.763 0.753 0. 841 0.757 0. 809 0. 706 0.772 
(TFIDF + PCA + DT 0. 674 0. 675 0. 736 0. 681 0.707 0. 683 0. 693 
; ¢ FIDF +PCA +RF 0.728 0.752 0. 807 0. 704 0.750 0. 692 0.739 
TFIDF + PCA + Bagging 0. 684 0.672 0.715 0.657 0.703 0. 663 0. 682 
TFIDF + PCA + Adaboost 0.747 0. 733 0.799 0.729 0.774 0.721 0.751 
WE+SVC 0. 680 0. 748 0.785 0. 724 0.758 0. 708 0. 734 
WE +LR 0.743 0. 786 0. 808 0. 762 0.778 0. 733 0. 768 
WE + DT 0. 606 0.590 0. 635 0.581 0.642 0.594 0. 608 
WE + RF 0. 668 0. 638 0.722 0. 644 0.671 0. 634 0. 663 
WE + Bagging 0. 605 0. 694 0. 673 0. 603 0.625 0. 642 0. 640 
WE + Adaboost 0.700 0. 732 0:772 0. 744 0.748 0. 698 0.732 
Stacked -LSTM 0. 802 0.787 0. 855 0.785 0. 834 0.729 0.799 
Bi-LSTM 0. 823 0.797 0. 827 0.759 0.840 0.781 0. 805 
CNN-LSTM 0.744 0. 736 0.819 0. 730 0.740 0.711 0.747 
Merged-CNN -LSTM 0. 825 0.810 0. 861 0. 785 0.828 0.744 0. 809 
CD-DRNN 0. 818 0.815 0. 861 0.772 0.853 0. 782 0.817 


对 比 循环 神经 网 络 模型 . 跨 领 域 TFIDF 机 器 学 习 
模型 和 路 领域 词 向 量 机 器 学 习 模 型 ,可 以 发 现 ,循环 神 
经 网 络 模型 的 效果 普遍 优 于 跨 领 域 TFIDF 机 器 学 习 模 
型 和 里 领域 词 向 量 机 器 学 习 模型 。 从 六 项 实验 取得 的 
平均 值 来 看 ,效果 最 好 的 是 本 文 所 提出 的 深度 循环 神 


经 网 络 模型 (CD-CRNN, 81.70% ) , 它 比 最 好 的 跨 领 域 
TFIDF 机 器 学 习 模 型 (TFIDF + PCA + LR,77. 20% ) 高 
4.50% , 比 最 好 的 跨 领 域 词 向 量 机 需 学 习 模 型 ( WE + 
LR,76.80% ) 高 4.90% 。 
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3.3 讨论 

对 比 上 述 三 组 实验 可 以 看 出 ,本 文 所 提出 的 基于 
深度 循环 神经 网 络 的 方法 在 跨 领 域 文 本 情感 分 析 的 效 
果 优 于 各 种 基线 方法 。 相 对 于 传统 的 TFIDF 方法 ,该 
模型 在 六 组 实验 中 的 均值 最 高 提升 约 28. 6% ( 对比 表 


切入 点 ,从 而 使 得 模型 应 用 能 够 脱离 繁重 的 人 工 标 注 

从 模型 的 内 在 机 理 来 看 ,本 文 涉及 知识 迁移 、 机 器 
学 习 与 情感 计算 等 视角 。 在 知识 迁移 方面 ,CD-DRNN 
采用 模型 迁移 的 方式 ,在 源 领 域 和 目标 领域 共享 堆 重 


4 第 一 行 与 最 后 一 行 ) ;相对 于 基于 词 向 量 的 方法 ,该 
型 在 六 组 实验 中 的 均值 最 高 提升 约 20. 9% (对 比 表 
4 第 九 行 与 最 后 一 行 ) ;相对 于 目前 所 用 的 循环 神经 网 
络 ,该 模型 在 六 组 试验 中 的 均值 最 高 提升 约 7% (对 比 
表 4 倒数 第 三 行 与 最 后 一 行 ) 。 与 基于 词 向 量 的 方法 
未 能 有 效 提升 跨 领域 机 器 学 习 的 效果 (对 比 图 3 和 图 
4) 不 同 ,CD-DRNN 模型 与 基线 的 对 比 表明 该 模型 能 够 


i 


有 效 提升 跨 领 域 文 本 情感 识别 的 有 效 性 。 这 说 明 通过 
Wie Jet LSTM 单元 ,让 每 一 层 LSTM 单元 分 别 以 正 
和 起 向 的 顺序 学 习 上 一 层 的 输出 序列 ,能 够 有 效 


向 
获 


也 
也 


(早产 领域 和 目标 领域 变化 时 ) 之 间 的 适 配 效果 呈现 
差 时 性。 例如 ,Music-*Book 这 一 组 实验 在 几乎 所 有 算 
HEDHI TI HR Aco 来 看 ) , 排 在 其 后 的 
(Roe Music— DVD , Book—>DVD |, DVD— Book DVD 一 
Music 和 Book 一 Music。 可 以 看 出 , 源 领 域 与 目标 领域 
篇 各 变化 时 ,各 种 模型 的 识别 效果 都 会 有 较 大 的 变化 ， 
这 开明 源 领域 和 目标 领域 的 选择 对 跨 领域 的 文本 情感 
分 析 具 有 一 定 的 影响 。 通 常 认 为 ,领域 之 间 的 相似 程 


对 领域 的 相似 程度 与 模型 适 配 效 果 的 正 相 关 性 未 作出 
检验 ,但 通过 对 比 Book 一 Music 和 Music— Book 两 组 实 
验 在 不 同 的 算法 之 中 的 效果 可 以 看 出 ,两 组 实验 在 各 
组 算法 的 效果 均 存 在 较 大 的 差异 。 这 表明 ,在 度量 源 
领域 和 目标 领域 的 相似 性 时 ,有 必要 考虑 领域 之 间 所 
存在 的 非 对 称 性 。 

从 数据 使 用 角度 来 看 ,本 文 所 使 用 的 标注 数据 数 
量 仅 为 每 个 领域 4 000 条 ( 即 正 向 数据 和 负 向 数据 各 
2 000 条 ) , 远 少 于 无 标注 数据 的 数量 (130 000 条 )。 
在 标注 数量 较 小 的 情况 下 ,模型 所 取得 的 文本 情感 分 
类 效果 仍然 好 于 基线 方法 。 这 表明 ,通过 CD-DRNN 模 
型 从 无 标注 数据 中 有 效 地 筛选 特征 ,能 够 大 大 降低 源 
领域 和 目标 领域 数据 标注 相关 的 工作 量 。 值 得 说 明 的 
是 ,CD-DRNN 模型 同时 从 无 标记 的 源 领 域 和 目标 领域 
文档 中 学 习 , 特 征 的 获取 以 通过 上 下 文 预测 单词 作为 
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式 双向 长 短 时 记忆 网 络 模型 和 参数 。 模 型 迁移 方法 减 
少 了 传统 特征 迁移 方法 对 枢纽 词汇 ( 领域 无 关 词汇 ) 
和 样本 迁移 方法 对 源 领 域 标注 数据 的 依赖 ,使 模型 显 
得 更 加 简洁 。 在 机 器 学 习 方 面 ,CD -DRNN 模型 采用 
“深度 表示 学 习 + 堆 释 式 双向 长 短 时 记忆 网 络 模型 ” 
的 组 合 方式 ,其 中 ,深度 表示 学 习 模 型 能 够 更 好 地 揭示 
和 获取 不 同 领域 文本 信息 的 内 在 语义 表示 ;相对 于 传 
统 的 循环 神经 网 络 模型 ,记忆 单元 的 加 入 能 够 更 好 地 
表示 和 控制 针对 输入 序列 的 长 期 . 远 期 和 近期 的 记忆 ， 
增强 了 处 理 远 距离 依赖 的 能 力 , 有 效 地 解决 传统 循环 
神经 网 络 在 处 理 长 度 较 大 的 序列 数据 时 所 面临 的 梯度 
消失 和 梯度 爆炸 问题 ;模型 同时 考虑 正 向 读 取 方 式 和 
反 向 读 取 方式 ,能 够 有 效 地 解决 反 向 依赖 问题 ;模型 采 
用 多 层 堆 释 ,能 够 在 多 个 层次 上 提取 与 领域 相关 的 情 
感 极 性 特征 ,综合 使 得 模型 在 跨 领 域 情感 分 析 的 准确 
度 上 优 于 基线 机 器 学 习 方法 。 在 情感 计算 方面 ,利用 
知识 迁移 与 机 器 学 习 模 型 对 跨 领 域 文本 在 篇 章 层次 上 
进行 情感 分 析 , 摆 脱 了 对 于 建立 跨 领域 情感 词典 的 依 
赖 ,因而 更 易于 推广 到 其 他 应 用 。 

本 文 与 同类 研究 ,如 文 “小 相 比 ,两 者 既 存 在 一 定 
关联 ,也 存在 本 质 区 别 。 首 先 ,从 研究 方法 来 看 , 文 “ 
采用 深度 卷 积 神经 网 络 来 进行 跨 领域 情感 分 析 , 而 本 
文 则 采用 深度 循环 神经 网 络 。 两 种 网 络 在 原理 上 存在 
本 质 差异 ,前 者 通过 卷 积 ` 池 化 等 操作 来 逐 层 提取 特 
征 , 后 者 通过 多 层 堆 合式 双向 长 短 时 记忆 网 络 来 提取 
特征 ,在 深度 学 习 领 域 隶属 于 不 同 的 研究 范畴 。 其 次 ， 
从 实验 设计 来 看 ,由 于 本 文 所 提出 模型 的 理论 基础 不 
同 于 文 ” ,因此 采用 不 同 的 基线 方法 和 评价 指标 。 
文 忆 提出 基于 卷 积 神经 网 络 的 模型 ,于 是 与 基于 结构 
对 等 模型 的 分 布 对 应 方法 这 种 基线 方法 在 Fl 指标 上 
进行 比 对 ;本 文 提出 基于 循环 神经 网 络 的 模型 ,与 九 种 
基线 方法 ( 即 三 种 单一 机 器 学 习 模 型 .三 种 组 合 机 器 学 
习 模 型 和 三 种 循环 神经 网 络 模型 ) 在 AUC 指标 和 ACC 
指标 上 进行 比 对 。 再 次 ,从 模型 内 在 机 理 来 看 ,本 文采 
用 了 不 同 的 知识 迁移 方法 。 文 ”依赖 于 特征 迁移 ( 领 
域 无 关 词汇 ) ,使 用 源 领 域 和 目标 领域 的 枢纽 词汇 来 表 
示 文档 中 的 词 项 ;本 文采 用 模型 迁移 的 方式 ,在 源 领 域 
和 目标 领域 共享 堆 闭 式 双向 长 短 时 记忆 网 络 模 型 和 参 
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数 , 减 少 了 枢纽 词汇 和 样本 迁移 方法 对 源 领域 标注 数 


据 的 依赖 ,使 模型 显得 更 加 人 简洁。 最 后 ,从 实验 结果 来 


看 ,与 文 ”" 相 比 ,本 文 提出 的 模 


型 在 与 多 数 基线 方法 


的 对 比 实验 中 保持 了 显著 的 优势 ,实验 结果 更 加 有 力 


地 证 明了 深度 循环 神经 网 络 模 
析 中 的 有 效 性 。 
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型 在 跨 领域 文本 情感 
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本 文选 择 亚 马 逊 在 书籍 .DVD 和 音乐 类 目下 的 中 
文 评论 作为 实验 数据 ,情感 分 析 作 为 研究 任务 ,提出 了 


一 种 面向 跨 领域 情感 分 析 的 深度 循环 神经 网 络 模型 
该 模型 在 跨 领 域 环境 下 的 平均 分 类 准确 度 达到 了 
70% , 优 于 传统 的 栈 式 长 短 时 记忆 网 络 、 双 向 长 短 日 
局 了 贺 络 模型 模型 
模型 以 及 卷 积 神经 网 络 长 短 时 记忆 网 络 并 联 模型 ， 
验 稍 果 证 明了 模型 的 有 效 性 。 
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ON 本 文 的 局 限 性 在 于 语料库 的 选择 主要 局 限于 中 


?在 后 绪 研 究 中 ,将 在 多 语言 语料库 中 验证 模型 


,并 


在 领域 跨度 更 大 的 环境 中 (例如 电子 产品 与 餐饮 类 评 


放下 进一步 检验 模型 的 效果 ;同时 ， 
脆 癌 习 模 型 (例如 生成 对 抗 网 络 模型 等 ) 来 进 
富 踪 领域 文本 情感 分 析 的 相关 研究 。 
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A Cross-domain Text Sentiment Analysis Based on Deep Recurrent Neural Network 


Yu Chuanming 

School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan 430073 

Abstract: [ Purpose/significance | In order to solve the problem of classification model in target domain that caused 
by the lack of data, this study firstly trains the model of source domain that includes rich labeling/tagging data, and then, 
projects source and target domain documents into the same feature space. [ Method/process | The reviews of three prod- 
uct categories, i.e. books, DVD and music, from Amazon, which are written in Chinese, are taken as the experimental 
data, and the cross-domain text sentiment analysis is considered as the research task. A novel model, i. e. the Cross Do- 
main Deep Recurrent Neural Network (CD-DRNN) , is proposed to achieve knowledge transfer among domains. The aver- 
age accuracy value of CD-DRNN achieves 81.70% , which excels the values of Stacked Long Short Term Memory (79. 
90% ) , Bidirectional Long Short Term Memory (80.50% ) , Convolution Neural Network with Long Short Term Memory 
(74.70% ) and Merged Convolution Neural Network with Long Short Term Memory (80.90% ). [ Result/conclusion | 
Knowledge transfer in source domain and target domain could effectively solve the difficulties of achieving good classifica- 
tion performances on small data sets. The proposed method can be leveraged to effectively select features from unlabeled 
data, thereby greatly reducing the workload related to data annotation in the target domain. 
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